GDELT每时每刻监控着每个国家的几乎每个角落的100多种语言的新闻媒体—印刷的、广播的和web形式的,识别人员、位置、组织、数量、主题、数据源、情绪、报价、图片和每秒都在推动全球社会的事件,GDELT为全球提供了一个自由开放的计算平台。
GDELT2.0每个15分钟提供全球事件数据。GDELT目前的事件库约有3.5亿条事件数据。这些事件从1979年1月1日开始一直到今日。GDELT第一项服务就是免费的数据下载。同时GDELT还在谷歌的BigQuery上提供了数据API,这样您可以使用谷歌的分析工具进行分析。GDELT的数据除了事件数据外,还提供了GKG数据,也就是全球知识图(Global Knowledge Graph)的数据。在国内您也可以到疙瘩汤(www.gdelt.cn)上下载数据。
在2013年美国国际开发总署 (USAID)和人权联合会举办的模型挑战赛利用GDEL数据作为最后一轮技术暴行预防挑战,这个挑战要求挑战者创建一个算法模型来预测合适何地将会发生 大规模暴行。建百名挑战者提交了618个算法,获胜算法在有限或者没有历史大规模暴乱数据的情况下,每个区域只考虑23个地缘、社会政治和历史冲突因素, 在区域内暴行预测特别成功。
这个是由来自北京的数据科学家李小石开发的,他在这个模型里融合了23个影响因素去做预测,并靠这个夺得了联合国防范暴行高科技竞赛的最高奖金,一万俩千 美金。令人难以置信的是,这个模型可以预测到在一个从未发生过暴乱的额地区将要发生的严重暴乱。这个模型最大作用不在于节省一个专家去预测在那些动荡地区 将要发生的暴乱,比如苏区和叙利亚地区,而在于预测那些被掉以轻心的事件。这个算法通常的预测正确率要高于另一个常用的dummy预测模型62%,而对于 那些在过去半年内没有暴乱的地区,这个模型的预测准确率却高于112%。
GDELT提供了分析服务,您需要的查询条件输入到页面。选择好需要的服务即可在10分钟内收到含有您需要的数据。利用这些数据即可对其进行分析。主要的分析形式有:事件浏览器、事件网络、事件时间线、事件热力图、GKG网络、GKG时间线、GKG热力图、GKG浏览等等。
GDELT还提供了四个解决方案,分别为态势感知、影响着网络、风险评估与全球趋势、政策反响和人权与危机处理等。
GDELT的数据分为1.0和2.0版本,区别是2.0版本从2015年2月19日开始收集新闻数据,收集频率更高,15分钟一次,功能更强大,分类效果更准,现在也已经回溯到1979年的新闻数据了。
你可能还需要阅读以下链接:
哪国媒体最反华?直觉又错了……
国外媒体“理客中”,中国媒体“最偏见”?别拿大数据忽悠人!(组图)
你怎么看待国外媒体热衷于报道中国负面新闻的事?
总结一下,《哪国媒体最反华?直觉又错了……》和知乎上@Lightwing(微博:李轶睿)的统计是错的,不能简单地认为数据中的事件中甲方(actor1)对乙方(actor2)的评价就是来源于甲方的媒体对乙方的评价,拿到数据想当然地做个查询然后以为很牛逼其实是很蠢的事情。GDELT的非英语新闻很少,至少中文新闻中对其他国家的褒贬就没有大量地、充足地收录,统计结果因此也有着很大的抽样误差。
GDELT的数据使用文档参考:
GDELT-Data_Format_Codebook.pdf
CAMEO.Manual.1.1b3.pdf
数据下载页面
zip类型的gdelt数据压缩包,解压后为csv格式,每个csv文件内的数据均有58个字段(2013年3月以前的数据仅有57个字段,4月之后为58个字段,即多了url字段),这58个字段分为
- EVENTID AND DATE ATTRIBUTES,
- ACTOR ATTRIBUTES,
- EVENT ACTION ATTRIBUTES,
- EVENT GEOGRAPHY,
- DATA MANAGEMENT FIELDS
1. EVENT AND DATE ATTRIBUTES
这一部分的字段记录了捕捉事件的全局唯一标识符号码,事件发生的日期和日期的不同版本格式,这有助于信息被记录在可能有特定的日期格式要求的不同的分析程序中。所包含的字段有:
A GlobalEventID:数据类型为整数型,它是一条记录的唯一标识符,通常它是递增标识的。
B Day:记录事件发生的日期,格式为YYYYMMDD
C MonthYear:记录事件发生的年月,格式为YYYYMM
D Year:记录事件发生的年份,格式为YYYY
E FractionDate:记录事件发生的日期,格式为YYYY.FFFF,其中FFFF为到该日期为止在当前年份所占的百分比,通过公式(MONTH * 30 + DAY) / 365进行近似计算。
2. ACTOR ATTRIBUTES
这一部分字段描述了事件的两个参与者的CAMEO码、名称和特征属性。在复杂事件或仅有一个参与者的事件中另一个参与者的属性值可能为空,在gdelt系统无法识别参与者时参与者属性也可能为空。每个参与者的各项属性在缺省的情况下也会为空值。所包含的字段有:
F Actor1Code:参与者1的CAMEO码。CAMEO包含一组编码属性指示参与者的地理、阶级、民族和宗教信仰和他的角色信息(政治精英、军官、反对派等)。每个属性均为3个字母的缩写,以任何可能的顺序排列组成CAMEO码。
G Actor1Name:参与者1的名称。对于政治领袖或组织,这将是领导人的正式名称(如乔治•W•布什、联合国);地理比赛将是该国或首都/主要城市名称。
H Actor1CountryCode:参与者1国家信息的CAMEO码(3字母缩写),它可能为Actor1Code中的CAMEO码,也可能为空。它标识了受到该事件影响的地理区域。
I Actor1KnownGroupCode:如果参与者1是一个已知的组织/非政府组织/反叛组织(如联合国、世界银行、基地组织等),该字段将包含其CAMEO码。
J 10 Actor1EthnicCode:如果系统能识别出参与者1的民族信息并且该民族具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。
K Actor1Religion1Code:如果系统能识别出参与者1的宗教信息并且该宗教具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。
L 12 Actor1Religion2Code:如果参与者1包含多重宗教信息,该字段将包含其二级代码。一些宗教将自动使用两个代码,如Catholic将调用Christianity作为第一个代码,Catholicism作为第二个。
M 13 Actor1Type1Code:此处的三位CAMEO代码将指代参与者1的类型或角色信息。这可能是一个特定的角色,如警察、政府、军队、政治反对派,反对派等,或是如教育、精英、媒体、难民这样的广泛的角色类型,或是有组织的团体,例如民间运动。特殊的代码如“温和的”和“激进的”可能指一组的操作策略。
N 14 Actor1Type2Code:如果参与者1具有多重角色,此处将包含其CAMEO码。
O 15 Actor1Type3Code:如果参与者1具有多重角色,此处将包含其CAMEO码。
参与者2将重复以上所有属性。
P 16 Actor2Code
Q 17 Actor2Name
R 18 Actor2CountryCode
S 19 Actor2KnownGroupCode
T 20 Actor2EthnicCode
U 21 Actor2Religion1Code
V 22 Actor2Religion2Code
W 23 Actor2Type1Code
X 24 Actor2Type2Code
Y 25 Actor2Type3Code
3. EVENT ACTION ATTRIBUTES
这部分字段将包含事件行为(即参与者1对参与者2所做的事)的各类属性,并将提供几种机制来评估事件的重要性和其造成的短期影响。
Z 26 IsRootEvent:此字段标识了该事件在事件流中是否处于根节点位置。
AA 27 EventCode:此字段通过CAMEO码描述了事件参与者1对参与者2的行为。
AB 28 EventBaseCode:这里是一个三级分类法标识的CAMEO码。对于第三级的事件,此处包含其二级事件的叶节点。例如编码“0251”(“Appeal for easing of administrative sanctions”) ,此处即为“025” (“Appeal to yield”)。对于二级事件和一级事件,此处即为其EventCode。
AC 29 EventRootCode:与上面类似,此处标识了事件的根节点。 如“0251” (“Appeal for easing of administrative sanctions”) ,此处即为“02” (“Appeal”)。
AD 30 QuadClass:这个字段指定事件类型主要分类,所有事件将被划分为以下四个分类之一:1=口头合作,2=物质合作,3=口头冲突,4=物质冲突。
AE 31 GoldsteinScale:每个事件将被分配一个在-10到+10之间的数值,用以衡量理论上该事件对国家产生的潜在影响。 注意 :这个分数的判定是基于事件类型而非事件的细节,因此一个10人参与的暴乱与一个1000人参与的暴乱都将获得同样的分数。
AF 32 NumMentions:该属性值为数据库内所有文章提及该事件的次数。这可以用作评估事件的重要性的方法:讨论该事件越多,越有可能是重要的。如果新闻文章发表之后这个事件引发了讨论,该字段数值会进行更新(例如,一个事件在几周后的可能引发一个舆论热潮,会有无数的新闻文章发表提到原始新闻;在新的发展背景下,某一事件在一周年时可能会有进一步的报道)。
AG 33 NumSources:该属性值为所有提及该事件的数据源数值。同上一个属性一样,这也可以用作评估事件的重要性的方法。该属性值也会在上文相同的情况下进行更新。
AH 34 NumArticles:该属性值为所有提及该事件的文章数。同上一个属性一样,这也可以用作评估事件的重要性的方法。该属性值也会在上文相同的情况下进行更新。
AI 35 AvgTone:该属性值为所有文章提及该事件时“语气”的平均值。分数范围从-100(极其消极的)到+100(极积极的)。共同的价值观分数范围在-10和+10之间,0表示中立。这可以用作过滤事件的“上下文”的方法,从而衡量一个事件的重要性和其影响。例如,轻微负面语气的暴乱事件很可能是一个小事件,而如果是极其负面的语气,这表明可能是一个更严重的事件。而具有积极分数的暴乱事件则可能表明上下文中正在描述一个积极的事(如每天攻击的数量已经大大减少了)。
4. EVENT GEOGRAPHY
这一部分属性值描述了事件参与者与事件的地理位置信息,包含如下字段:
When looking for events in or relating to a specific country, such as Syria, there are two possible filtering methods. The first is to use the Actor_CountryCode fields in the Actor section to look for all actors having the SYR (Syria) code. However, conflict zones are often accompanied by high degrees of uncertainty in media reporting and a news article might mention only “Unidentified gunmen stormed a house and shot 12 civilians.” In this case, the Actor_CountryCode fields for Actor1 and Actor2 would both be blank, since the article did not specify the actor country affiliations, while their Geo_CountryCode values (and the ActorGeo_CountryCode for the event) would specify Syria. This can result in dramatic differences when examining active conflict zones. The second method is to examine the ActorGeo_CountryCode for the location of the event. This will also capture situations such as the United States criticizing a statement by Russia regarding a specific Syrian attack.
AJ 36 Actor1Geo_Type:该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)
AK 37 Actor1Geo_Fullname:此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。
AL 38 Actor1Geo_CountryCode:此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。
AM 39 Actor1Geo_ADM1Code: 对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31:200x标准)。注意:在没有ADM2信息可用,某些ADM1级别匹配以及所有国家级匹配的情况下,此字段可能为空白/空。 注意:此字段可能仍然包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。
AN 40 Actor1Geo_Lat:参与者1所处地理位置的纬度。
AO 41 Actor1Geo_Long:参与者1所处地理位置的经度。
AP 42 Actor1Geo_FeatureID. :参与者1地理位置的GNS或GNIS标识,详细信息请参考 Leetaru(2012)
AQ 43 Actor2Geo_Type:该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)
AR 44 Actor2Geo_Fullname:此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。
AS 45 Actor2Geo_CountryCode:此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。
AT 46 Actor2Geo_ADM1Code: 对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31:200x标准)。注意:在没有ADM2信息可用,某些ADM1级别匹配以及所有国家级匹配的情况下,此字段可能为空白/空。 注意:此字段可能仍然包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。
AU 47 Actor2Geo_Lat:参与者1所处地理位置的纬度。
AV 48 Actor2Geo_Long:参与者1所处地理位置的经度。
AW 49 Actor2Geo_FeatureID. :参与者1地理位置的GNS或GNIS标识,详细信息请参考 Leetaru(2012)
AX 50 ActionGeo_Type 该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)
AY 51 ActionGeo_Fullname 此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。
AZ 52 ActionGeo_CountryCode 此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。
BA 53 ActionGeo_ADM1Code 对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31:200x标准)。注意:在没有ADM2信息可用,某些ADM1级别匹配以及所有国家级匹配的情况下,此字段可能为空白/空。 注意:此字段可能仍然包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。
BB 54 ActionGeo_Lat
BC 55 ActionGeo_Long
BD 56 ActionGeo_FeatureID
5. DATA MANAGEMENT FIELDS
最后一组字段提供数据管理信息记录的事件记录。2013年4月1日之前的事件在这部分中只具有DATEADDED属性。
BE 57 DATEADDED:因为今天发布的新闻报道可以报道过去的事件,这将导致此字段和其他事件日期字段不一致。此字段记录的是该条数据被添加入数据库的日期,而第一部分的日期信息记录的是事件发生的时间。
BF 58 SOURCEURL:这个字段只存在2013年4月1日以后的文件中。通常记录事件的新闻文章的URL列表。如果事件是从BBC监测服务的文章中获得的,这个字段将包含“BBC Monitoring”。如果一个事件在多篇文章中被提及,只提供一个url。